Loading...
机构名称:
¥ 2.0

决策感知模型学习的想法,该模型应该在决策重要的地方准确地是准确的,并且在基于模型的强化学习中获得了突出的重要性。虽然已经建立了有希望的理论结果,但缺乏利用决策损失的算法的经验性能,尤其是在连续控制问题中。在本文中,我们介绍了一项关于决策感知强化学习模型所需组件的研究,并展示了能够实现良好表现算法的设计选择。为此,我们对该领域的算法思想提供了理论和实证研究。我们强调,在Muzero的作品系列中建立的经验设计决策,最重要的是使用潜在模型,对于在相关算法中实现良好的性能至关重要。此外,我们表明Muzero损耗函数在随机环境中有偏见,并确定这种偏见具有实际后果。在这些发现的基础上,我们概述了哪些决策吸引的损失功能最好在经验方案中使用,从而为该领域的从业者提供了可行的见解。

arxiv:2306.17366v3 [cs.lg] 29年2月29日2024

arxiv:2306.17366v3 [cs.lg] 29年2月29日2024PDF文件第1页

arxiv:2306.17366v3 [cs.lg] 29年2月29日2024PDF文件第2页

arxiv:2306.17366v3 [cs.lg] 29年2月29日2024PDF文件第3页

arxiv:2306.17366v3 [cs.lg] 29年2月29日2024PDF文件第4页

arxiv:2306.17366v3 [cs.lg] 29年2月29日2024PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2022 年
¥3.0
2025 年
¥14.0
2024 年
¥1.0
2024 年
¥1.0